Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/data_analysis_ml/-3605-3606-3607-3605-): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Анализ данных (Data analysis) | Telegram Webview: data_analysis_ml/3605 -
Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций.

Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.

Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:

🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными.

🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки.

🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку.

По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).

При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.

⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.

Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.

▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах.


🟡Страница проекта
🟡Модели
🟡Arxiv
🟡Demo (китайский язык)
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/data_analysis_ml/3605
Create:
Last Update:

🌟 Hunyuan Video Avatar: видео-аватары с контролем эмоций.

Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.

Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:

🟢Сharacter image injection module - отвечает за то, чтобы "оживший" персонаж на видео оставался очень похожим на того, кто был на исходной фотографии. Он следит, чтобы черты лица, прическа, общие контуры не искажались и персонаж был узнаваем на протяжении всего ролика, а его движения были естественными.

🟢Audio Emotion Module (AEM) - контролирует соответствие эмоций на лице голосу из аудиоисточника, чтобы выражение лица персонажа на видео точно совпадало с эмоциональной окраской звуковой дорожки.

🟢Face-Aware Audio Adapter (FAA) - помогает "понять", к какому именно лицу в данный момент относится звучащая речь. Он как бы надевает "умную маску" на лицо нужного персонажа, чтобы только его мимика оживала в ответ на конкретную аудиодорожку.

По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).

При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.

⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.

Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.

▶️В репозитории проекта на Github есть несколько скриптов в помощь для запуска: для low VRAM, инференса на одном GPU , для multi-GPU и запуска с WebUI на базе Gradio. Адаптация к среде ComfyUI - в планах.


🟡Страница проекта
🟡Модели
🟡Arxiv
🟡Demo (китайский язык)
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar

BY Анализ данных (Data analysis)





Share with your friend now:
tg-me.com/data_analysis_ml/3605

View MORE
Open in Telegram


Анализ данных Data analysis Telegram | DID YOU KNOW?

Date: |

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

The lead from Wall Street offers little clarity as the major averages opened lower on Friday and then bounced back and forth across the unchanged line, finally finishing mixed and little changed.The Dow added 33.18 points or 0.10 percent to finish at 34,798.00, while the NASDAQ eased 4.54 points or 0.03 percent to close at 15,047.70 and the S&P 500 rose 6.50 points or 0.15 percent to end at 4,455.48. For the week, the Dow rose 0.6 percent, the NASDAQ added 0.1 percent and the S&P gained 0.5 percent.The lackluster performance on Wall Street came on uncertainty about the outlook for the markets following recent volatility.

Анализ данных Data analysis from hk


Telegram Анализ данных (Data analysis)
FROM USA